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摘要 : [目的 /意义 ] 基于 新 时 代 人 民 日 报 分 词语 料 库 从 不 同 维度 统计 分 析 句 子 长 度 和 词汇 分 布 ,有 助 于 了 
解 当 代 汉 语文 本 的 语言 学 特征 ,进而 开展 自然 语言 处 理 和 文本 挖掘 研究 。[ 方 法/ 过程 ] 在 2018 年 1 AARE 
报 分 词语 料 的 基础 上 ,结合 1998 年 1 月 人 民 日 报 分 词语 料 ,确定 统计 中 所 使 用 的 6 种 句子 类 别 , 统 计 和 分 析 字 
与 词 单位 上 的 句子 长 度 分 布 ,并 基于 齐 普 夫 定 律 揭示 词汇 静态 分 布 情况 。[ 结果 /结论 ] 从 字 词 维度 上 的 句子 长 
度 分 布 情况 和 词汇 的 齐 普 夫 分 布 状态 上 看 , 随 着 时 间 的 推移 ,在 1998 和 2018 两 个 语 料 上 ,句子 的 长 度 和 词汇 的 
颁布 均 发 生变 化 ,但 这 种 变化 又 是 延续 的 \ 有 关联 的 。 
> 关键 词 : 新 时 代 人 民 上 日 报 分 词语 料 语料库 句子 长 度 ”词汇 分 布 齐 普 夫 定律 
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oa 
| 句 长 作为 重要 的 语言 特征 ,具有 较 高 的 研究 价值 。 
160 研究 背景 和 意义 


无 论 是 语言 的 纵向 发 展 还 是 不 同 语言 间 的 横向 比较 ， 
prne TEN : 
从 语言 字 和 统计 等 的 角度 对 文本 构成 的 名 子 和 词 从 字 和 词 的 角度 分 析 句 长 都 是 其 中 关键 的 研究 要 素 。 


js 太行 统计 和 分 析 是 开展 语言 分 析 和 文本 处 理 的 前 提 。 关于 句 长 的 研究 ,目前 主要 集中 在 非特 定 领域 的 句 长 


已 溃 习 得 教学 的 展开 ,对 机 带 学 习 来 说 有 利于 特征 的 统 。 面 。 关 于 非特 定 领 域 句 长 规律 的 代表 性 研究 如 下 : 基 


计 嘲 选取。 词汇 分 布 情况 的 统计 不 仅 有 益 于 人 们 了 解 于 对 赫 西 俄 德 和 荷 马 等 现存 著作 中 句 长 进行 分 析 ,D. 


自 我 使 用 语言 词汇 的 概貌 ,而 H 也 为 汉语 的 自 动 分 词 S Clayman [37 iE BH T^ Y 长 度 和 音素 数量 的 分 布 与 作品 


词性 怀 注 和 句法 分 析 提 供 了 最 为 直接 的 词汇 特征 知识 。 风格 和 主题 存在 着 极 大 的 联系 。 这 一 研究 成 果 对 作者 


鉴于 此 ,基于 日 行 构建 的 新 时 代 人 民 日 报 语 料 (New 所 属 艺术 流派 的 鉴别 判断 有 重要 的 借鉴 作用 。 通 过 对 
Era People' s Daily Segmented Corpus , 简称 NEPD ) ,结合 120 万 字 汉 语 语 料 中 所 有 句子 进行 切 分 和 统计 , 黄 自 
北京 大 学 1998 年 1 月 人 民 日 报 语 料 , 对 前 后 跨度 20 年 然 " 分 别 从 “ 字 ” 和 “ 词 ”的 维度 统计 了 句子 长 度 的 分 
的 人 民 日 报 语 料 进行 字 和 词 维 度 上 的 句子 长 度 分 布 和  ” 布 ,总 结 了 句 长 和 平均 句 长 频次 分 布 的 内 在 规律 。 在 
词汇 分 布 的 统计 与 分 析 。 这 一 探究 不 仅 从 句子 长 度 和 ”结构 和 使 用 细节 上 ,十 汉语 和 现代 汉语 存在 着 较 大 差 
词汇 分 布 上 全 面 展示 前 后 两 个 语 料 的 相同 之 处 ,而 且 也 异 , 李 青苗 中 基于 对 《 左 传 ) 中 的 偏 正 结构 和 句子 长 度 
呈现 了 其 不 同 之 点 。NEPD 涵盖 了 《人 民 日 报 》2015 上 的 统计 分 析 , 从 句法 分 析 的 角度 证 明了 汉民 族 对 细节 
半年 (1-6 月 ) 及 2016 年 1 月 .2017 年 1 月 .2018 年 1 月 意义 逐步 重视 ,从 而 使 得 现代 汉语 比 先秦 古代 汉语 在 
共 9 个 月 的 语 料 ,同时 进行 了 人 工分 词 标注 ,是 经 过 人 名 长 上 增加 非常 多 。 在 名 长 研究 的 基础 上 , 王 萍 与 石 
加 工 的 精 语 料 "” ,以 学 术 研究 为 目的 人 员 可 访问 网 。 锋 中 结合 “阅读 语调 "对 汉语 普通 话 中 不 同 语句 类 型 
站 http :// corpus. njau. edu. cn 提交 申请 免费 获得 。 本 文 的 阅读 时 长 表现 进行 了 细致 地 分 析 和 比较 ,并 归纳 出 
所 使 用 的 是 其 中 的 2018 年 1 月 语 料 。 了 “阅读 时 长 "的 分 布 模式 ,该 研究 是 对 句 长 研究 的 拓 
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展 和 补充 。 在 张 绍 鹿 和 李 明 ” 对 汉语 句 长 的 研究 基础 
上 ,左思 民 "” 指出 人 脑 的 信息 加 工 处 理 方式 .语调 以 及 
某 些 强 制 性 的 表达 格式 是 制约 句 长 增长 的 三 大 因素 。 

另 一 方面 的 相关 研究 主要 集中 在 语言 教学 上 , 尤 
其 是 儿童 语言 的 教学 上 。 句 长 在 评价 儿童 句法 发 展 时 


证 。 基 于 《科技 情报 工作 的 科学 技术 》 语 料 , 王 崇 德 和 
来 玲 ”通过 计算 C 值 的 中 心 特征 ,说 明 中 文 文集 中 的 
词汇 呈现 了 齐 普 夫 分 布 规律 。 通 过 对 中 文 小 说 《坚硬 
的 稀 粥 》 的 前 18 个 段落 进行 词 频 统计 与 分 析 , 何 风 
远 发 现 词 频 在 分 布 上 呈现 出 较为 明显 的 齐 普 夫 分 


是 一 个 关键 性 的 指标 ,在 儿童 母语 习 得 研究 ,智障 儿童 
语言 习 得 研究 和 第 二 语言 习 得 研究 上 均 有 重要 应 用 。 
从 词 和 语素 的 角度 , 黄 自然 和 贾 成 南 呈 统计 了 不 同年 
龄 段 儿 童 的 平均 句 长 ,并 在 实验 中 将 平均 句 长 与 句法 
结构 复杂 度 结合 起 来 ,证 明了 平均 句 长 作为 评测 儿童 
语言 发 展 的 有 效 性 。 与 上 述 研究 类 似 ,在 针对 儿童 词 
汇 广度 和 句法 复杂 度 的 实验 研究 中 , 金 志 娟 和 人 金星 
WEO 与 M. Montgomery 等 均 分 析 得 出 了 学 龄 前 儿童 
的 语言 整体 发 展 状 况 。 学 界 对 句子 长 度 的 研究 不 仅 局 
限 宇 单一 语言 的 历史 发 展 情况 和 儿童 语言 的 习 得 ,而 
用 第 二 语言 的 学 习 过 程 中 名 长 的 研究 也 具有 较 强 的 
弦 诈 和 意义 。 通 过 对 中 美 高 中 生 的 英文 写作 结果 进行 
分 析 ,李建平 和 张 晓 菌 "发 现 中国 中 学 生 写 作 的 
弄 焰 名 长 低 于 美国 中 学 生 写 作 的 平均 句 长, 且 不 同 长 
本 子 在 分 布 上 存在 很 大 差异 。 该 研究 从 二 语 习 得 的 
i 其 证 明了 句 长 研究 的 现实 价值 。 

中 在 本 文 的 研究 中 ,除了 探究 句子 长 度 的 分 布 之 外 ， 
对 二 词汇 自身 的 分 布 状况 结合 齐 普 夫 定 律 也 进行 了 控 
究 之 齐 普 夫 定律 是 美国 学 者 齐 普 夫 "于 20 世纪 40 年 
依据 出 的 词 频 分 布 定律 ,在 90 年 代 早期 ,国内 一 些 学 
者 对 该 定律 进行 了 一 些 探索 和 研究 。 首 先是 对 于 齐 普 
夫 定 律 的 探究 , 比较 有 代表 性 的 研究 如 下 : 冯 志 伟 ” 
对 丽 普 夫 定律 的 来 龙 去 脉 作 了 说 明 , 同 时 指出 面临 同 
频 词 时 , 同 频 词 的 排序 等 级 还 有 待 进一步 研究 。 孙 清 
兰 和 王 秘 建 ” 对 上 述 问题 进行 了 探讨 ,并 通过 理论 研 
究 和 实例 验证 证 明了 最 大 值 法 为 齐 普 夫 定律 中 确定 词 
级 的 最 优 方法 。 为 了 揭示 词 出 现 的 频次 与 同 频 词 数 量 
的 制约 关系 , 孙 清 兰 " 提出 了 新 的 高 频 、 低 频 词 界 分 
公式 ,并 通过 理论 分 析 和 实验 验证 表明 了 其 可 靠 性 。 
Wi 对齐 普 夫 定 律 的 数学 验证 方式 作 了 总 结 和 归 
纳 。 其 次 ,在 章 普 夫 定律 的 验证 和 应 用 方面 ,相关 学 者 
也 做 了 许多 工作 。 基 于 由 1949 年 至 2008 年 间 意大利 
十 位 总 统 的 年 终 演讲 组 成 的 语 料 ,A. Tuzzi 467 统计 
发 现 即使 文本 的 编撰 者 不 止 一 人 ,词汇 分 布依 然 遵循 
齐 普 夫 定律 ,而 且 不 同人 的 语言 风格 也 能 在 词 频 上 清 
晰 地 体现 出 来 。 沈 关 龙 "9 统计 了 英文 文献 《国外 电力 
可 靠 性 文献 检索 系统 》 中 篇 名 的 怀 题词 频 , 对 齐 普 夫 第 
一 定律 和 齐 普 夫 第 二 定律 低频 区 词 频 分 布 理论 做 了 验 


布 规律 。 最 后 , 齐 普 夫 定律 在 生活 中 普遍 存在 ,除了 自 
然 语 言 领域 ,一 些 学 者 将 齐 普 夫 定 律 的 应 用 延伸 到 了 
城市 规模 ”公司 规模 、 网 站 访问 量 ” 以 及 文献 计 
量 学 等 领域 ,依然 可 以 得 到 大 量 符合 齐 普 夫 定律 的 场 
景 。 在 上 述 国内 外 研究 的 基础 上 ,本 文 基于 2018 年 1 
月 人 民 日 报 分 词语 料 ,结合 1998 年 1 月 人 民 日 报 分 词 
语 料 , 从 字 、 词 维度 的 句子 长 度 分 布 与 词汇 的 齐 普 夫 分 
布 这 两 个 角度 ,进行 系统 而 全 面 地 统计 与 分 析 , 并 对 相 
应 结果 进行 对 比 研究 。 


为 了 更 加 充分 和 全 面 地 统计 人 民 日 报 语 料 中 名 长 
的 分 布 情况 ,本 研究 按照 ”。( 句 号 ) ”“?【《〈 问 号 )””! 
(感叹 号 ) “六 (分 号 ) “:( 冒 号 ) eee CRG)” X 
6 类 标点 符号 统计 人 民 日 报 语 料 中 以 字 和 词 为 单位 的 
句 长 整体 分 布 情况 。 对 于 非 上 述 6 类 标点 符号 结尾 的 
句子 统一 归属 到 其 他 类 中 。 其 他 类 主要 包括 部 分 特殊 
表达 以 及 人 物 对 话 , 如 :“ Cre bio P OUO CU 
片 新 闻 ”“ 二 ,原因 和 教训 ”上 海 综合 指数 周 K 线 图 ” 
和 ”一 次 公司 下 班 后 开会 ,会 议 结束 前 , 徐 柏 玉 问 : D 
一 位 夜晚 从 家 外 出 不 关 灯 ? 请 举 手 ! "等 。 其 中 , 以 
上 述 人 物 对 话 为 例 , 按 本 研究 的 统计 规则 将 其 分 为 4 
句 话 :中 一 次 公司 下 班 后 开会 ,会 议 结束 前 , 徐 柏 玉 问 : 
思 哪 一 位 夜晚 从 家 外 出 不 关 灯 ? 包 请 举 手 ! OD" Wn — 
位 夜晚 从 家 外 出 不 关 灯 ? 请 举 手 !”, 由 于 引号 内 的 两 
句 话 已 计 入 问号 类 别 和 叹 号 类 别 , 故 将 第 4 句 归 为 其 
他 类 ,在 后 文 的 分 析 中 不 予 统计 。1998 年 1 月 和 2018 
年 1 月 人 民 日 报 语 料 中 不 同类 别 句子 分 布 情况 如 表 1 


和 表 2 所 示 : 
表 1 1998 人 民 日 报 语 料 不 同类 别 句 子 分 布 情 况 
句子 类 别 句子 数量 ( 句 ) 

35 982 

2 636 

? 761 

! 664 

sees 346 

3 258 

他 7 173 
总 计 50 820 
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R2 2018 人 民 日 报 语 料 不 同类 别 句 子 分 布 情况 


句子 类 别 句子 数量 ( 句 ) 
75 450 
4 867 
2 2071 
! 927 
seen 236 
4211 
其 他 7 370 
总 计 95 132 


2.1 1998 年 1 月 人 民 日 报 字 维 度 上 的 句 长 分 布 
在 (人 民 日 报 》1998 年 1 月 数据 的 基础 上 ,以 “。 
“为 标点 符号 得 到 6 类 句子 , 共 
43 647 句 。 以 字 作为 句子 的 基本 构成 单位 ,统计 并 计 


TE T IKE ,选取 句子 长 度 出 现 频次 前 20 名 的 句子 


KAY EL IUE 3 所 示 : 
表 3 1998 年 句子 长 度 整体 分 布 

频次 |.. ark 频次 
(次 |” (x (次 ) 
940 11 22 843 
915 12 17 837 
909 13 32 837 
895 14 35 830 
P 18 890 15 20 820 
6 34 886 16 3l 811 
7” 25 883 17 30 807 
e d 24 862 18 36 806 
of 28 857 19 19 803 
10 c 33 845 20 27 801 


ri CO 对 句子 长 度 进行 统计 ,排名 前 20 的 句子 长 度 频 次 
均 超过 了 800 次 , 且 句 子 长 度 全 部 分 布 于 17 -36 字 之 
间 。 出 现 频 次 超过 800 次 的 各 种 长 度 句 子 频 次 总 和 为 
17 077 次 , 占 总 体 的 39.13% ,超过 三 分 之 一 ,具有 较 高 
的 代表 性 。 且 长 度 为 26.29 和 23 字 的 句子 出 现 频 次 
均 超 过 900 次 ,三 者 共 出 现 2 764 次 , 占 总 体 的 6.33% ， 
占 前 20 名 的 16. 1996 , 占 总 体 长 度 分 布 的 较 大 比重 。 


的 39.35% ,接近 40% , 占 比较 高 。 其 长 度 均 分 布 于 20 
-41 字 区 间 内 , 且 出 现 频次 超过 700 次 的 句子 长 度 共 
出 现 8 899 次 ,为 总 体 的 24.73% , 占 前 20 名 的 62. 
85% ,较为 明显 地 分 布 于 21 -36 字 区 间 内 。 与 总 体 情 
况 相 比 ,以 句号 为 分 隔 符 的 句子 长 度 分 布 情况 呈现 出 较 
大 的 起 伏 ,句子 长 度 为 26 字 的 句子 出 现 频次 最 多 ,为 
813 次 ,而 长 度 为 41 字 的 句子 仅 出 现 618 次 ,更 加 证 明 
了 句子 长 度 分 布 的 集中 趋势 , 即 长 度 为 21 -36 字 之 间 的 
句子 是 以 句号 为 分 隔 符 的 句子 中 的 重要 研究 对 象 。 

分 号 在 句子 中 担任 分 隔 符 时 与 句号 作用 相似 ,其 
长 度 分 布 情况 也 与 句号 分 陋 符 有 较 高 相似 度 。 以 分 号 
为 分 隔 符 的 句子 共 出 现 2 636 次 , 远 低 于 以 句号 为 分 
隔 符 的 句子 数量 。 出 现 频次 前 20 名 的 句子 长 度 分 布 
于 12 -35 字 的 区 间 内 , 共 出 现 1 236 次 , 占 总 体 的 
46. 8996 ,句子 长 度 集中 程度 较 高 ,分 布 的 集中 趋势 较 
明显 , 且 分 布 较 平 均 , 未 出 现 较 大 差距 。 这 与 分 号 在 句 
子 中 的 功能 有 和 较 大 联系 ,分 号 是 介 于 逗号 和 句号 之 间 
的 标点 符号 ,主要 用 以 分 隔 存在 一 定 关系 (并 列 .转折 、 
承接 、 因 果 等 ,通常 以 并 列 关 系 居多 ) 的 两 句 分 句 , 故 分 


号 左右 的 句子 存在 一 定 的 结构 相似 性 ,长 度 差距 也 控 
制 在 较 小 范围 内 。 


感叹 号 作为 特殊 的 句子 分 隔 符 ,多 出 现 于 表达 强 
烈 情 感 的 句子 中 ,总 体 出 现 频 次 较 少 , 共 出 现 664 次 ， 
占 总 体 的 比例 为 1.52% , 远 低 于 以 句号 和 分 号 为 分 隔 
符 的 句子 数量 。 该 类 别 中 ,句子 长 度 出 现 频次 排名 前 
20 的 句子 ,长 度 分 布 于 3 -30 字 区 间 中 ,最 短 句子 长 度 
远 低 于 其 他 类 别 , 且 句子 长 度 小 于 10 字 的 句子 数量 为 
154 句 , 占 总 体 的 23.19% , 占 前 20 名 的 42.42% 。 感 
叹 号 为 分 隔 符 的 句子 多 为 新 闻 稿 中 简短 但 语气 强烈 的 
短 句 ， el 
号 通常 表示 提示 语 后 的 停顿 或 表示 提示 下 文 或 
sn. e 以 冒号 为 分 隔 符 的 句子 共 出 
现 3 258 次 , 占 总 体 的 7.46% , 占 比 仍 远 低 于 以 句号 和 
分 号 为 分 隔 符 的 句子 数量 ,上 且 句子 长 度 出 现 频次 排名 


但 从 总 体 来 看 ,长度 为 17 -36 字 之 间 的 句子 出 现 频次 
分 布 较为 平均 ,未 出 现 大 幅度 波动 。 

以 ”7000 为 句子 分 隔 符 , 分 别 
统计 6 类 句子 的 长 度 分 布 情况 ,展示 不 同 句子 分 割 符 
在 语 料 中 出 现 的 频次 及 占 比 情况 。 六 类 句子 长 度 具 体 
分 布 情况 见 表 4。 

以 句号 为 分 隔 符 的 句子 共 出 现 35 982 次 ,以 句子 
长 度 出 现 频次 为 排序 依据 ,得 到 出 现 频次 前 20 名 的 句 
子 长 度 分 布 情况 ,出 现 频次 总 和 为 14 158 , 占 全 体 总 数 


前 20 的 句子 长 度 分 布 于 3 -23 字 之 间 , 总 体 来 说 句子 
长 度 较 短 , 且 长 度 不 超过 5 字 的 句子 出 现 总 频次 为 588 
次 , 占 总 体 的 1.35% , 占 排名 前 20 的 长 度 的 句子 数量 
的 25.06% ,超过 四 分 之 一 。 

以 省 略 号 为 分 隔 符 的 句子 共有 346 句 , 数 量 远 低 
于 其 他 类 型 的 句子 ,其 占 全 部 句子 数量 的 8% ,比重 较 
小 , 仅 出 现在 极 少数 情况 下 ,表达 语义 难 尽 或 断断续续 
等 含义 。 其 长 度 主要 分 布 于 13 -43 字 区 间 内 ,起 伏 偏 
差 较 大 ,但 出 现 频 次 较 相 似 , 均 不 高 于 10 次 。 
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表 4 1998 年 6 类 句子 长 度 具 体 分 布 


" Dr 分 号 感叹 号 冒号 mm 问号 

id 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 
26 813 20 78 11 28 3 280 27 10 11 45 
2 34 779 17 70 6 26 18 207 34 10 8 40 
3 29 TI 22 70 7 26 5 187 16 9 10 37 
4 23 755 12 66 4 25 17 173 21 9 13 30 
5 24 731 21 66 9 25 11 124 43 9 12 28 
6 25 733 26 65 10 21 4 121 22 8 19 28 
ti 33 732 25 64 3 19 10 113 33 8 14 26 
8 32 726 33 64 12. 19 12 102 35 8 18 26 
9 35 718 16 63 14 19 9 98 13 T 7 24 
10 21 712 28 63 16 19 15 94 17 7 15 24 
11 28 712 30 63 15 17 8 93 20 T 9 23 
12 36 711 24 61 23 15 19 93 25 7 17 21 
13 3l 695 23 59 13 14 16 92 29 7 20 21 
14 22 689 35 59 19 14 14 90 3l 7 21 19 
15 30 674 14 57 25 14 6 88 38 7 25 18 
38 665 27 57 28 13 13 87 15 6 6 17 
27 664 29 55 30 13 20 84 19 6 30 17 
37 629 32 55 8 12 21 81 24 6 5 14 
-一 20 625 18 51 18 12 T T] 26 6 16 14 
^ 20 41 618 19 50 29 12 23 62 30 6 23 13 


加 问号 是 语气 语调 的 辅助 符号 工具 ,表示 一 句 话 结 
环 闻 后 的 停顿 ,用 于 疑问 句 、 设 间 句 和 反问 名 结尾 ,新 
闻 据 道中 常用 于 反问 句 表达 强烈 感情 。 以 问号 为 分 隔 
答 彰 句子 数量 为 761 句 , 占 总 体 的 约 1.74% ,总 的 来 看 


排 在 前 20 位 的 句子 长 度 出 现 频次 均 超 过 了 1 400 
次 ,总 出 现 频次 为 30 992 次 , 占 全 部 句子 数量 的 35. 
3196 ,超过 总 数 的 三 分 之 一 。 表 5 中 句子 长 度 分 布 于 
19 -38 字 的 区 间 中 ,长 度 跨度 较 大 , 且 出 现 频次 落差 


比 屠 较 低 。 出 现 数量 排 在 前 20 位 的 句子 长 度 分 布 于 5 
530 字 , 共 出 现 485 次 , 占 全 部 以 问号 结尾 的 句子 的 
631939 ,比重 较 高 ,超过 以 上 5 种 类 型 句子 的 前 20 名 
频 普 所 占 比 重 ,句子 长 度 的 集中 趋势 最 明显 , 故 该 长 度 
区 阿 的 句子 有 重要 的 研究 价值 。 
2.2 2018 年 1 月 人 民 日 报 字 维 度 上 的 旬 长 分 布 

在 2018 年 1 月 人 民 日 报 语 料 的 基础 上 ,同样 以 
6 种 标点 符号 为 句子 分 隔 


较 大 ,如 长 度 为 26 字 的 句子 出 现 1 668 次 , 比 长 度 为 
21 字 的 句子 出 现 频次 多 242 次 。 出 现 频次 前 20 名 的 
句子 长 度 的 频次 平均 值 为 1 549.6 次 ,与 中 位 数 差距 
较 小 ,变化 曲线 较 平 稳 。 同 时 从 句 长 排序 居 前 三 的 数 
据 分 布 来 看 ,2018 4E 1 月 的 句子 在 长 度 上 要 比 1998 年 
1 月 有 所 增加 。 

对 6 种 不 同类 型 的 句子 长 度 分 布 情况 进行 统计 ， 
并 以 句子 长 度 出 现 频次 降序 排列 ,选取 排 在 前 20 位 的 


符 ,本 文 共 获 得 了 87 762 个 句子 。 统 计 不 同 长 度 句子 
的 出 现 频次 ,对 频次 降序 排列 ,并 取出 现 频次 前 20 名 
的 句子 长 度 为 示例 和 研究 对 象 ,如 表 5 所 示 : 

表 5 2018 年 句子 长 度 分 布 


序号 ”长 度 ( 字 ) 频次 (次 ) FS ”长 度 ( 字 ) 频次 (次 ) 
1 26 1 668 11 23 1 571 
2 27 1 634 12 28 1 548 
3 33 1 621 13 31 1 547 
4 25 1 602 14 36 1 511 
5 34 1 599 15 22 1 498 
6 30 1 595 16 20 1 479 
7 29 1 595 17 38 1454 
8 35 1 594 18 19 1 448 
9 24 1 592 19 37 1 432 
10 32 1578 20 21 1 426 


句子 长 度 及 出 现 频次 见 表 6。 

句号 作为 分 隔 符 的 句子 出 现 频次 为 75 450 次 , 占 
全 部 句子 数量 的 85.97% ,接近 五 分 之 四 ,比例 极 高 , 句 
子 长 度 出 现 频次 前 20 位 的 数量 总 和 为 25 311 次 , 占 全 
部 句子 总 和 的 28. 84% ,同时 占 以 句号 为 分 隔 符 的 句 
子 总 数 的 33.54% ,超过 了 三 分 之 一 , 且 句 子 长 度 集 
中 在 22 -44 字 区 间 内 。 与 1998 年 数据 相 比 ,以 句号 
为 分 隔 符 的 句子 比例 大 幅 提 升 , 增 长 118% ,句子 长 
度 区 间 未 出 现 较 大 变化 ,较为 明显 地 展示 出 人 民有 日 
报 使 用 句号 的 频率 大 幅 提升 ,语言 表达 方式 出 现 较 
大 变化 。 
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表 6 2018 年 6 类 句子 长 度 具体 分 布 
- 句号 分 号 感叹 号 冒号 省 略 号 问号 

长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 长 度 ( 字 ) 频次 (次 ) 

1 26 1 413 24 129 9 37 3 248 58 11 12 103 

2 33 1 404 27 119 8 30 5 202 22 11 14 82 

3 35 1 398 19 118 10 30 4 199 38 10 13 TI 

4 34 1 393 28 112 13 30 9 149 23 9 15 72 

5 30 1 388 22. 111 17 29 6 143 26 8 20 71 

6 27 1 380 20 111 19 29 1l 128 42 Jj 19 71 

7 32 1 361 29 108 12 26 10 127 51 T 10 65 

8 29 1 360 21 107 7 26 7 124 27 T7 11 64 

9 25 1 356 26 106 22 26 8 120 33 6 18 63 

10 36 1 330 25 105 20 24 15 116 28 6 16 63 

11 31 1 322 30 104 24 24 13 114 34 5 17 62 

12 23 1 316 35 103 18 24 14 110 24 5 21 62 

T 13 28 1 302 32 102 15 21 12 106 8 5 8 59 

> 14 24 1 296 34 102 16 21 18 106 32 5 T 55 

15 38 1 294 23 101 23 21 19 106 18 4 23 53 

16 40 1 274 31 100 6 20 16 103 31 4 25 51 

17 39 1 259 16 95 14 19 20 95 36 4 9 50 

Tw zz 18 37 1 253 41 95 35 19 17 95 17 4 24 46 

m " 19 22 1212 33 94 33 17 22 93 4T 4 22 45 

20 44 1 204 36 94 5 17 24 92 25 4 6 43 


ON 以 分 号 为 分 隔 符 的 句子 共 出 现 4 867 次 , 占 总 体 
数 狂 的 5. 54% ,句子 长 度 主要 分 布 于 16 - 41 字 区 间 
内 3 与 1998 年 同月 数据 相 比 ,该 类 型 句子 占 全 部 句子 
效 是 的 比例 降低 约 9% ,变化 较 小 ,句子 长 度 区 间 的 上 
下 限 均 有 所 提高 。 总 体 来 说 ,2018 年 数据 中 以 分 号 为 
分 绍 符 的 句子 占 比 略 低 于 1998 年 的 同月 水 平 ,句子 长 
度 突 所 提升 ,以 分 号 结尾 的 复杂 长 名 使 用 更 加 频繁 。 
一 以 感叹 号 为 分 隔 符 的 句子 在 2018 年 的 数据 统计 
中 仍 占 比 较 小 , 共 出 现 927 次 , 占 总 体 数量 的 约 1% ,是 
1998 年 同期 数据 占 比 的 三 分 之 二 左右 ,但 由 于 基数 较 
小 ,总 体 差距 不 大 ,与 1998 年 数据 相 比 ,使 用 感叹 号 表 
达 强 烈 语气 的 句子 仍 占 极 小 部 分 , 且 使 用 比例 有 所 降 
低 。 句 子 长 度 区 间 由 1998 年 的 3 -30 字 提 升 到 5 -35 
字 , 增 幅 较 小 ,变化 不 大 。 
冒号 作为 句子 分 隔 符 获 得 的 句子 数量 仍 是 以 句号 
和 分 号 为 分 隔 符 的 句子 数量 之 外 最 多 的 , 共 4 2114, 
占 全 部 句子 总 数 的 4. 80% ,只 有 1998 年 同期 数据 的 
64.34% ,降幅 较 大 ,以 冒号 开启 下 文 的 句子 比例 下 滑 。 
与 此 同时 ,句子 长 度 所 在 区 间 为 3 -24 字 ,与 1998 年 
数据 基本 相同 ,冒号 的 使 用 习惯 变化 较 小 ,但 使 用 频率 
大 大 下 降 。 
从 统计 数据 来 看 ,以 省 略 号 结尾 的 句子 数量 为 


236 名 , 占 全 部 句子 总 数 的 2% ,在 总 体 句子 数量 基数 
增加 的 条 件 下 ,以 省 略 号 为 分 隔 符 的 句子 数量 仍 呈 下 
降 趋势 ,与 1998 年 同期 数据 占 比 相 比 下 降 75% ,由 
8% 的 占 比 下 降 到 仪 占 总 数 的 2% 。 较 为 明显 地 说 明 
人 民 日 报 报道 中 语义 难 尽 和 断 续 说 明 等 表达 方式 正在 
被 明确 详细 的 表达 方式 所 取代 。 

以 问号 作为 分 隔 符 的 句子 数量 为 2 071 句 , 占 总 
体 数 量 的 2.36% ,其 中 排名 在 前 20 名 的 句子 长 度 出 现 
频次 为 1 257 次 , 占 总 体 数量 的 1.43% , 占 以 问号 为 分 
隔 符 的 句子 总 数 的 60.70% ,句子 长 度 主 要 分 布 于 6 - 
25 字 之 间 。 与 1998 年 同期 数据 相 比 ,以 问号 结尾 的 句 
子 总 数 和 占 比 均 有 小 幅 提升 ,前 20 名 句子 长 度 占 该 类 
型 句子 总 数 的 比例 略 降低 ,句子 长 度 间 差距 变 小 。 


词 维度 上 的 名 长 分 布 


在 上 述 字 统计 的 基础 上 ,按照 已 经 分 词 后 的 结果 ， 
本 研究 统计 和 分 析 1998 年 1 月 和 2018 年 1 月 人 民 日 
报 词汇 维度 句 长 的 整体 分 布 情况 。 
3.1 1998 年 工 月 人 民 日 报 词 维度 上 的 句 长 分 布 

与 字 基 础 上 的 长 度 分 布 一 致 ,本 文 在 句子 长 度 分 
布 统计 时 ,去 除了 类 别 为 其 他 的 文本 。 统 计 发 现 1998 
年 1 月 的 句子 中 ,句子 长 度 分 布 状态 为 在 2 -198 词 的 
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区 间 离 散 分 布 。 句 子 长 度 的 分 布 如 图 1 所 示 , 图 1 中 
的 横 坐 标 为 句子 长 度 , 纵 坐标 为 对 应 长 度 的 句子 出 现 
的 频次 , 即 句子 数量 。 


图 1 1998 年 人 民 日 报 语 料 句 子 长 度 区 间 分 布 
情况 表 -总 ( 以 “ 词 " 为 单位 ) 


句子 数量 


从 图 1 中 按照 句子 长 度 频 次 即 句子 数量 降序 选取 
频次 最 高 的 前 20 个 句子 长 度 , 具 体 分 布 情况 如 表 7 所 
LY 

QD 表 7 1998 年 人 民 日 报 语 料 句子 频次 前 20 句子 


CN 长 度 分 布 情况 -总 (以 “ 词 " 为 单位 ) 
O rs 句子 长 度 ( 词 ) 频次 (次 ) 占 比 (%) 
N 1 14 1 510 2.97 
Q 2 15 1 498 2.95 
CO ; 18 1 478 2.91 
A 4 16 1 455 2.86 
N: 17 1 437 2.83 
L^ 6 19 1 406 2.77 
Z 7 12 1 391 2.74 
>< 8 21 1 367 2. 69 
E 9 9 1 363 2.68 
nm 10 20 1337 2.63 
Ka 13 1335 2.63 
© 12 22 1 282 2.52 
13 23 1 266 2.49 
14 11 1227 2.41 
15 24 1225 2.41 
16 25 1174 2.31 
17 10 1120 2.20 
18 26 1104 2.17 
19 27 1 082 2.13 
20 28 1031 2.08 


从 图 1 中 可 以 看 出 ,1998 年 的 人 民 日 报 语 料 句 子 
共有 50 820 句 , 以 词 为 单位 分 布 范 围 为 2-198 du]. 4J 
子 长 度 的 分 布 呈现 明显 的 集中 情况 ,结合 表 3 可 以 得 
到 ,句子 长 度 主 要 集中 在 9 -30 词 这 个 区 间 范 围 ,这 个 
名 长 范围 的 句子 出 现 频次 都 在 1 000 次 以 上 。1998 年 
1 月 人 民 日 报 句 子 的 整体 分 布 有 着 明显 的 “ 拖 尾 ” 现 
象 ,从 30 往 后 呈现 下 降 的 趋势 ,最 后 出 现 大 量 的 1, 即 
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不 同 长 度 句 子 出 现 频 次 只 有 1 次 。 前 20 的 句子 数 占 
了 总 句子 数 的 51.33% ,前 20 的 句子 长 度 的 句子 数 在 
总 句子 数 中 的 占 比 均 超过 2% 。 从 频次 排 21 的 句子 长 
度 开始 ,各 个 长 度 的 句子 的 数目 占 总 数目 的 比重 都 低 
于 2% ,将 前 20 的 句子 长 度 按 频次 来 区 分 可 以 分 为 频 
次 大 于 1 300 次 和 频次 小 于 1 300 次 两 个 区 间 ,第 一 区 
间 一 一 1 - 11 名 占 总 句子 数 比 重 30. 65% ,第 二 区 
间 一 一 12 -20 名 占 总 句子 数 比 重 20. 68% 。 将 前 20 
的 句子 长 度 按照 句子 长 度 所 属 区 间 可 以 分 为 1 -10 11 
-20,21 -30 三 个 区 间 , 前 20 中 长 度 在 1 -10 词 的 有 
9 .10 ,长 度 在 11 -20 词 的 句子 均 包 含 在 其 中 ,长 度 在 
21 -30 词 的 有 20 .22 23 24 25 26 27 28。 可 以 看 出 ， 
句子 长 度 主要 集中 在 11 - 30 词 之 间 。 在 整体 的 长 度 
分 布 当 中 ,对 1998 年 6 类 频次 居于 前 10 的 句子 分 布 
情况 进行 了 具体 分 析 ,具体 分 布 见 表 8。 

将 句子 按照 句号 .分 号 ,感叹 号 .冒号 .省 略 号 和 问 
号 来 划分 ,依据 前 10 的 句子 长 度 分 布 来 看 :以 句号 结 
尾 的 句子 长 度 主要 集中 在 14 -23 词 ;分 号 结尾 的 句子 
长 度 主要 集中 在 8 - 19 词 ;感叹号 结尾 的 句子 长 度 主 
要 集中 在 3 - 16 词 ;冒号 结尾 的 句子 长 度 主要 集中 在 2 
-14 词 ;省 略 号 结尾 的 句子 长 度 主要 集中 在 10 - 24 
词 ; 问 号 结尾 的 句子 长 度 主 要 集中 在 5 - 16 词 。 与 整 
体 的 前 20 高 频 句 子 长 度数 分 布 相 比 较 , 以 句号 结尾 的 
句子 的 高 频 句 长 中 没有 9、10 这 两 个 长 度数 ,多 了 29， 
其 余 与 整体 一 致 ;以 分 号 结尾 的 句子 中 出 现 了 7.8 这 
两 个 句子 长 度数 ,这 与 整体 的 高 频 句 子 长 度数 略 有 不 
同 , 其 余 也 均 与 整体 一 致 ;感叹 号 的 句子 中 与 整体 不 一 
致 的 句子 长 度数 是 2.3,4.5.6. 7.8; 冒 号 .问号 中 也 都 
有 一 些 较 小 的 句子 长 度数 。 以 除 句号 外 的 其 他 符号 为 
结尾 的 出 现 频 次 前 20 的 句子 长 度数 与 整体 相差 较 大 ， 
但 由 于 以 分 号 ,感叹 号 .冒号 省略 导 和 问号 结尾 的 名 
子 只 有 很 少 一 部 分 ,因此 对 最 终 的 分 布 影响 较 小 。 结 
合 图 1, 以 分 号 感叹号. 冒号、 省 略 号 和 问号 结尾 的 句 
子 虽 然 只 有 很 少 一 部 分 ,但 是 其 高 频 句 子 长 度 却 在 句 
子 长 度 最 集中 的 区 间 内 。 
3.2 2018 年 1 月 人 民 日 报 词 维度 上 的 句 长 分 布 

按照 上 述 方法 和 流程 ,本 文 基于 词 这 一 单位 统计 
2018 年 1 月 人 民 日 报 语 料 中 句子 的 分 布 情况 。 句 子 长 
度 分 布 状态 为 2 - 309 区 间 的 离散 分 布 。 图 2 为 句子 
长 度 的 分 布 图 , 横 坐 标 为 句子 长 度 , 纵 坐标 为 对 应 长 度 
的 句子 出 现 的 频次 , 即 句子 数量 。 从 图 2 中 按照 句子 
长 度 频次 即 句子 数量 的 降序 选举 频次 最 高 的 前 20 个 
句子 长 度 ,得 到 的 分 布 情况 见 表 9。 
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Z8 1998 年 人 民 日 报 语 料 句子 长 度 区 间 分 布 情况 -分 (以 “ 词 ”为 单位 ) 
句号 分 号 感叹 号 冒号 省 略 号 问号 
序号 句子 长 度 频次 ”句子 长 度 频次 句子 长 度 ”频次 句子 长 度 频次 AFRE 频次 句子 长 度 频次 
( 词 ) (次 ) ( 词 ) (次 ) ( 词 ) (次 ) ( 词 ) (次 ) ( 词 ) (次 ) ( 词 ) (次 ) 
1 18 1 272 13 117 9 37 9 439 21 16 6 63 
2 16 1 255 17 116 3 35 2 310 14 14 7 56 
3 15 1 252 19 110 6 34 3 291 17 13 8 51 
4 14 1 219 14 107 7 30 6 243 24 13 9 46 
5 17 1 212 15 107 5 29 8 167 10 12 10 39 
6 21 1 193 18 103 8 29 4 163 12 12 13 33 
7 19 1 192 9 100 4 27 7 159 20 12 15 32 
8 20 1 169 10 100 16 26 11 144 15 11 11 29 
9 23 1127 12 100 10 23 5 140 18 11 16 29 
10 22 1124 8 93 11 22 14 140 22 11 5 27 
11 12 1 121 24 90 22 22 12 113 30 11 12 26 
m 12 13 1 069 20 87 19 20 10 99 19 10 4 25 
25 24 1 055 21 86 12 19 13 98 23 10 17 19 
14 25 1 048 11 83 18 19 15 79 29 10 24 19 
QN 5 27 989 7 82 15 17 17 67 32 10 14 18 
O 16 26 981 22 75 21 15 16 65 28 9 3 17 
e 17 11 942 16 72 25 15 19 57 2 8 18 17 
| ıs 28 929 25 71 26 14 18 56 13 8 19 17 
Ou, 29 887 26 70 2 13 21 45 16 8 23 17 
20 18 1 272 13 117 9 37 9 439 21 16 6 63 
e ON o 
N X9 2018 年 人 民 日 报 语 料 句 子 频 次 前 20 句子 
ss 长 度 分 布 情况 -总 (以 “ 词 ” 为 单位 ) 
序号 句子 长 度 ( 词 ) 频次 (次 ) 占 比 (% ) 
1 15 2 834 2.98 
| 2 18 2 708 2.85 
3 16 2 681 2.82 
22 2 667 2.80 
图 2 2018 年 人 民 日 报 语 料 句子 长 度 区 间 5 20 2 647 2.78 
分 布 情况 £L “ 词 ” 为 单位 ) 6 17 2 629 2.76 
7 19 2 603 2.74 
2018 年 的 人 民 日 报 语 料 句 子 共 有 95 132 名 ,以 词 8 21 2 584 2.72 
为 单位 分 布 范围 为 2 - 309 词 。 与 1998 年 人 民 日 报 语 : n 2507 - 
料 相似 ,句子 长 度 的 分 布 呈现 明显 的 集中 状况 ,频次 最 19 Mi SEM Ae 
高 的 是 长 度 为 15 词 的 句子 ,共有 2 834 句 ,排名 前 20 ini Pi 
12 24 2 402 2.52 
TRE 29 词 的 句子 也 有 1 961 句 。 结 合 图 2 和 表 9 可 n M 325 E 
以 看 出 ,句子 长 度 主要 集中 在 10 -30 词 这 个 区 间 范 14 25 2 263 2.38 
围 , 这 个 句 长 范围 的 句子 数 都 在 1 900 句 以 上 。 相 较 15 26 2 208 2.32 
于 1998 年 人 民 日 报 语 料 ,2018 年 人 民 日 报 语 料 的 语 料 16 27 2 159 2.27 
量 有 很 大 的 增长 。 17 11 2 119 2.23 
2018 年 人 民 日 报 句子 的 整体 分 布 也 有 着 明显 的 - E n 
Zo un - 19 10 1975 2.08 
“ 拖 尾 "现象 ,句子 数 在 句子 长 度 为 15 词 达 到 顶峰 ,随后 " E i yu: 


呈 下 降 趋 势 。 前 20 的 句子 数 占 了 总 句子 数 的 50. 55% , 
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Ej 1998 年 相同 的 是 ,前 20 的 句子 长 度 的 句子 数 在 总 
句子 数 中 的 占 比 均 超过 2% 。 从 频次 排 21 的 句子 长 度 
开始 ,各 个 长 度 的 句子 的 数目 占 总 数目 的 比重 都 低 于 
2% ,前 20 的 句子 长 度 又 可 以 分 为 频次 大 于 2 500 词 和 
频次 小 于 2 500 词 两 个 区 间 , 第 一 区 间 一 一 1 -9 名 占 
总 句子 数 比 重 25. 03% ,第 二 区 间 一 一 10 -20 名 占 总 
句子 数 比 重 25.52% 。 将 前 20 的 句子 长 度 按照 句子 长 


度 所 属 区 间 可 以 分 为 1 — 10,11 220,21 -30 三 个 区 
间 , 前 20 中 长 度 在 1-10 词 的 有 10 ,长度 在 11 -20 词 
的 句子 均 包含 在 其 中 ,长 度 在 21 -30 词 的 有 21、22、 
23 24 25 26 27 28 .29 ,可 以 看 出 句子 长 度 也 主要 集 
中 在 11 -30 词 之 间 。 本 研究 进一步 统计 了 6 类 句子 
在 长 度 上 的 分 布 情况 ,具体 如 表 10 所 示 : 


表 10 2018 年 人 民 日 报 语 料 句 子 长 度 区 间 分 布 情况 -分 ( 以“ 词 ” 为 单位 ) 


句号 分 号 感叹 号 冒号 省 略 号 问号 

序号 句子 长 度 。 频次 句子 长 度 ”频次 句子 长 度 ”频次 句子 长 度 MK 句子 长 度 ”频次 句子 长 度 频次 
( 词 ) (次 ) ( 词 ) QK) ( 词 ) QK) ( 词 ) (次 ) ( 词 ) QK) ( 词 ) (次 ) 

1 18 2 345 15 218 7 47 3 412 22 10 9 141 
2 15 2 323 16 199 6 44 2 280 21 9 7 116 
3 22 2 309 14 178 15 40 7 235 24 8 6 114 
16 2 280 18 177 10 38 4 234 9 7 11 110 

20 2 280 12 174 12 38 6 224 13 T 8 104 

19 2 274 13 174 9 37 9 188 15 T 13 98 

21 2 263 11 172 11 36 5 184 16 7 10 95 

17 2 242 19 166 5 33 8 181 12 6 12 92 

23 2 155 24 166 8 32 12 160 17 6 14 86 

24 2 131 20 164 13 31 10 156 29 6 15 86 

13 2 071 22 163 16 29 11 156 10 5 5 TI 

14 2 066 17 160 4 28 15 144 11 5 20 63 

26 1 997 23 152 19 26 13 138 20 5 4 62 

14 25 1 981 21 151 14 25 14 135 25 5 17 62 
27 1 951 10 145 22 25 18 132 27 5 16 58 

28 1 888 25 134 24 25 16 129 3l 5 18 51 

12 1 821 27 132 25 23 17 123 32 3 21 47 

29 1 778 9 127 17 22 20 100 35 5 22 44 

30 1 661 26 127 3 21 19 90 18 4 19 42 

20 11 1 630 8 119 18 20 22 83 19 4 3 39 

31 1 630 28 104 / / / / 23 4 / / 

/ / 六 / / f / 六 38 4 / / 


将 句子 按照 句号 、 分 号 ,感叹 号 .冒号 .省 略 号 和 问 
号 来 划分 ,按照 前 10 的 句子 长 度 分 布 来 看 :以 句号 结 


的 分 布 情况 影响 较 小 。 以 分 号 .感叹 号 .冒号 省略 号 
和 问号 这 些 符 号 结尾 的 句子 虽然 数目 较 少 ,但 其 高 频 


尾 的 句子 长 度 主要 集中 在 15 -24 词 ; 分 号 结尾 的 句子 
长 度 主要 集中 在 11 -24 词 ;感叹 号 结尾 的 句子 长 度 主 
要 集中 在 5 -15 词 ;冒号 结尾 的 句子 长 度 主 要 集中 在 2 
-12 词 ;省 略 号 结尾 的 句子 长 度 主 要 集中 在 9 -29 i; 
问号 结尾 的 句子 长 度 主 要 集中 在 6-15 ii]. 


句子 长 度 仍 在 句子 长 度 最 集中 的 区 间 内 。 

以 词 为 单位 统计 句子 长 度 对 1998 年 和 2018 年 人 
民 日 报 语 料 进行 分 析 , 本 研究 发 现 以 下 现象 :比较 表 7 
和 表 9 可 以 发 现 ,2018 年 语 料 量 虽 然 较 1998 年 语 料 量 
有 很 大 的 提升 ,但 是 以 词 为 单位 统计 句子 长 度 ,句子 长 


与 整体 的 前 20 名 高 频 句 子 长 度 分 布 相 比 较 ,句号 
结尾 的 句子 长 度 分 布 与 整体 分 布 基本 一 致 ,以 除 句号 
外 的 其 他 符号 结尾 的 句子 的 频次 排 在 前 20 名 的 句子 
长 度数 与 整体 相差 较 大 ,但 由 于 数目 较 少 ,所 以 对 最 终 
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度 除 极 个 别 有 所 增长 外 ,在 整体 长 度 分 布 上 基本 一 致 。 
1998 年 和 2018 年 语 料 的 句子 主要 长 度 分 布 在 9 - 28 
词 之 间 ,最 高 频次 出 现在 11 - 29 词 之 间 , 整 体 呈 现 为 
先 上 升 再 下 降 的 趋势 。 句 子 数量 主要 集中 在 一 个 长 度 


黄 水 清 ,， 王 东 波 .新 时 代 人 民 上 日 报 分 词语 料 库 构建 .性 能 及 应 用 (三 ) 


63(24) :5 - 15. 


ChinaXjv 合 作 期 于 
句 长 与 词 的 分 析 比 较 [ 门 . B S EIE E 2019, 


较 小 区 间 内 ,但 是 句子 长 度 整 体 的 跨度 非常 大 ,因此 会 
有 很 长 的 “ 拖 尾 ” 现象 ,存在 个 别 非常 长 的 句子 ,但 是 
这 种 句子 占 的 比重 非常 小 ,基本 上 可 以 忽略 不 计 。 比 
较 1998 年 与 2018 年 人 民 日 报 语 料 各 句子 类 别 的 句子 
量 , 除 省 略 号 外 的 类 别 句子 数目 均 有 增长 ,但 省 略 号 类 
别 的 句子 数目 有 所 减少 。 语 料 中 最 多 的 是 句号 结尾 的 
句子 ,其 他 符号 结尾 的 句子 量 较 少 ,对 整体 分 布 情况 的 
影响 较 小 ,整个 语 料 的 句子 长 度 分 布 主要 受 句 号 结尾 
句子 影响 ,基本 与 句号 结尾 句子 的 分 布 情况 相同 。 以 
分 号 .感叹 号 .冒号 、 省 略 号 和 问号 结尾 的 句子 虽然 较 
少 , 但 其 高 频 句 子 长 度 依然 在 整体 高 频 句 长 区 间 内 。 


4 ” 词 分 布 上 的 齐 普 夫 定 律 验证 
一 齐 普 夫 博 士 在 对 大 量 文本 数据 进行 词 频 统计 的 研 


究 囊 ,提出 以 下 词 频 分 布 规律 :f=Cr“, 其 中 f 是 词 频 ， 
r dex is BUMHHE ES, CRI X 是 参数 ,得 到 齐 普 夫 表 
拓 适 的 一 般 表达 形式 FxR = C。 

在 公式 f=Cr“ 中 ,如 将 f 和 + 放 在 双 对 数 坐标 系 
中 时 ,log(f) =log(C) -alog(r) 所 绘 出 的 曲线 接近 一 
打量 线 , 且 斜率 近似 为 - 1, 即 a 的 值 接近 1。 后 来 的 
学 者 们 在 大 量 数据 的 基础 上 进行 进一步 研究 ,发 现 上 
述 ZS 式 并 不 能 完全 地 反映 频率 词典 中 词 频 的 分 布 规 
律 。> 如 + 的 值 与 的 值 之 间 存 在 唯一 对 应 关系 ,这 与 现 
实 屋 况 中 不 同 词 拥有 相同 词 频 的 现象 不 符 , 实 验证 明 ， 
SS <r < 1500 的 时 候 ,频率 相同 的 词 群 容量 不 大 , 当 
r 1500 时 , 即 单词 的 频率 较 小 时 ,频率 相同 的 词 群 的 
容量 会 陡 增 ,引发 数据 稀 玻 问 题 。 所 以 , 齐 普 夫 定律 的 
适 厅 情况 仍 具有 探索 和 研究 的 空间 。 在 上 述 对 句子 长 
度 进行 以 字 和 词 为 单位 的 统计 分 析 基础 上 ,本 研究 结 
合 齐 普 夫 定律 ,进一步 地 从 词 的 静态 分 布 上 对 词 的 分 
布 情况 进行 统计 和 分 析 。 本 文 对 1998 年 1 月 和 2018 
E1 月 的 人 民 日 报 语 料 分 别 进 行 词 频 统计 ,运用 公式 
log(f) =log(C) - alog(x) ,借助 SPSS 工具 验证 齐 普 夫 
定律 ,在 直角 坐标 系 中 绘图 ,a 即 直线 的 斜率 ,log(C ) 
是 拟 合 直 线 在 y 轴 上 的 截 距 。 具 体 流程 如 下 : 


1 、 对 人 民 日 报 语 料 的 频次 和 排序 两 列 数据 分 别 进 


B 


行 取 对 数 处 理 ; 

2 .借助 于 SPSS 工具 ,使 用 线性 回归 分 析 , 计 算 相 
关 参 数 ; 

3 根据 两 列 数据 画 出 图 形 ,绘制 拟 合 直线 。 


在 上 述 流程 的 基础 上 ,本 研究 分 别 得 到 1998 4E 1 
月 和 2018 年 1 月 人 民 日 报 语 料 中 词汇 的 分 布 情况 ,如 


表 11、 图 3 和 图 4 所 示 : 
表 11 采用 最 小 二 乘法 (OLS) 对 1998 年 1 月 和 
2018 年 1 月 人 民 日 报 语 料 的 齐 普 夫 定 律 线性 回归 拟 合 结 果 


语 料 a log( C) R2 
1998 年 1 H AR Hd 1.331 14.222 0.975 
2018 年 1 H AR H Jt 1.417 15. 663 0.976 


3E M JERE T log Cr) fil logC£) 的 线性 回归 拟 合 结 
果 , 可 以 看 到 :1998 年 1 月 人 民 日 报 语 料 回 归 分 析 的 
R =0.975 ,表示 自 变 量 对 因 变 量 的 解释 能 力 达 到 了 
97.5% 。 拟 合 回 归 方 程 :y = -1.331x +14.222。 如 图 
3 ,其 中 x 轴 为 排序 的 对 数 ,y 轴 为 词 频 的 对 数值 。 


R? 线性 =0.975 
12.00 
e 
o 
LJ 
10.00 bd 
8.00 
g€ 
3 
6.00 
4.00 
2.00 
m 
.00 
.00 2.00 4.00 6.00 8.00 10.00 12.00 


logír) 


3 1998 年 1 月 人 民 日 报 语 料 基 于 OLS 的 
排序 — 词 频 分 布 以 及 拟 合 曲线 


2018 年 1 月 人 民 日 报 语 料 回归 分 析 的 RP = 
0.976, 表 示 自 变量 对 因 变 量 的 解释 能 力 达 到 了 
97.696 , 拟 合 回归 方程 :y = -1.417x +15.663, 如 图 4 


所 示 , 图 中 x 轴 为 排序 的 对 数 ,y 轴 为 词 频 的 对 数值 。 


包含 拟 合 线 的 简单 散 点 图 /logf 按 logr R? 线性 =0.976 
12.00 | 一 e 
[LJ 
10.00 
8.00 
e 
E: 
E 
6.00 
4.00 
2.00 
p 
.00 —— 
.00 2.00 4.00 6.00 8.00 10.00 12.00 


logír) 


4 2018 年 1 月 人 民 日 报 语 料 基 于 OLS 的 
排序 — 词 频 分 布 以 及 拟 合 曲线 
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从 图 3 和 图 4 可 以 看 出 ,1998 年 1 月 和 2018 年 1 
月 人 民 日 报 的 两 组 语 料 在 词 频 分 布 上 表现 十 分 相似 ， 
一 个 词 出 现 的 频率 与 它 在 频率 表 里 的 排名 成 反比 , 符 
合 齐 普 夫 定 律 。 同 时 ,从 1998 年 到 2018 年 , 随 着 时 代 
的 变迁 ,人 民 日 报 的 用 词 也 出 现 了 细微 变化 ,两 者 拟 合 
的 曲线 并 非 完 全 一 致 。 斜 率 , 即 a 值 ,是 区 分 语言 分 布 
特征 的 重要 参数 ,在 大 多 数 欧洲 语言 中 ,a 取 值 为 1, 由 
于 中 英语 言 特征 的 差异 ,在 1998 年 1 月 和 2018 年 1 月 
人 民 日 报 语 料 中 a 的 取 值 分 别 为 1.331 和 1.447, 具 有 
相对 较 大 的 差异 ,说 明 同一 种 语言 在 不 同时 期 呈现 出 
不 同 的 词 频 分 布 特征 ,因此 ,简单 地 用 1998 年 1 月 人 
民 日 报 语 料 的 语言 分 布 规律 和 特征 已 经 无 法 直接 分 析 
现在 的 人 民 日 报 语 料 。 表 12 分 别 列举 了 1998 年 1 月 


分 布 的 实际 情况 ,但 是 , 词 频 分 布 问 题 是 很 复杂 的 ,使 
得 齐 普 夫 定律 在 适用 范围 上 有 一 定 的 局 限 性 ,如 图 3 
和 图 4 所 示 ,数据 在 中 段 拟 合 效 果 最 好 ,但 前 段 和 后 段 
有 不 少数 据 偏离 了 拟 合 线 , 正 如 前 文 所 述 ,尤其 对 出 现 
频次 特别 高 的 词 和 特别 低 的 词 ,并 不 能 完全 反映 其 词 
频 分 布 特征 。 


为 了 更 深入 和 系统 地 研究 人 民 日 报 语 料 在 句子 和 
词汇 层级 上 的 语言 特征 和 风格 ,本 文 基于 2018 年 1 月 
人 民 日 报 分 词语 料 , 结 合 1998 年 1 月 人 民 日 报 分 词语 
料 对 人 民 日 报 的 句子 长 度 和 词 频 分 布 情况 进行 了 研 
究 。 在 统计 和 分 析 过 程 中 ,确定 了 人 民 日 报 语 料 的 句 


和 2018 年 1 月 人 民 日 报 语 料 中 相对 词 频 最 高 的 前 20 


Al. 
K3 


月 和 2018 年 1 月 人 民 日 报 语 料 的 
词 频 分 布 结 果 


1998 年 2018 年 

的 的 
了 和 
和 Y 
是 是 

m 中 国 
为 年 
有 = 
不 为 

上 发 展 
X ES 
新 
13 中 国 等 
14 发 展 有 
15 这 对 
16 要 中 
17 多 上 
18 与 也 
19 到 E 
20 他 要 


AR 12 可 以 看 出 ,相对 词 频 排名 前 20 的 词 基 本 
重合 ,“ 的 “了 ”在 ”等 虚词 和 介词 ,都 出 现在 两 个 语 
料 词 频 排名 前 20 的 名 单 中 ,符合 “最 省 力 法 则 ”。 相 较 
于 1998 年 1 月 人 民 日 报 语 料 ,2018 年 人 民 日 报 语 料 中 
“中 国 ”“ 发展 “新 "等 词 出 现 的 相对 词 频 明 显 上 升 , 体 
现 了 人 民 日 报 在 现代 汉语 的 使 用 习惯 上 的 变迁 。 

一 般 情 况 下 , 齐 普 夫 定律 较 符 合 西方 文献 中 词 频 
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子 类 型 ,并 全 面 对 比 和 分 析 了 两 个 语 料 在 句子 长 度 和 

词 频 分 布 上 的 整体 相同 点 和 具体 不 同 点 。 为 了 更 加 深 

人 地 统计 和 挖 据 人 民 日 报 这 一 文本 中 所 蕴含 的 语言 规 

律 和 语言 特征 知识 ,在 后 续 的 研究 中 ,一 方面 从 词汇 上 

深入 地 探究 人 名 、 地 名 .机构 和 时 间 等 实体 这 一 语言 单 

位 上 的 分 布 规律 , 另 一 方面 融入 句法 的 相应 知识 和 技 

AR ,更 加 深入 而 细致 地 探究 句子 的 分 布 特征 。 
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Abstract. [ Purpose/significance] The statistics and analysis of sentence length in different dimensions and vocabu- 


"distribution based on the New Era People’ s Daily( NEPD) word segmentation corpus is not only conducive to a rela- 


tively comprehensively and systematically understanding of the linguistic characteristics of the contemporary Chinese text, 


but-also beneficial to the subsequent exploration of natural language processing and text mining of the text. 


[ Method/ 


pfocess ] Based on the word segmentation data of People' s Daily in January 2018 and the word segmentation data of Peo- 


ple' s Daily in January 1998, 6 sentence categories used in the statistics were determined, and the sentence length distri- 


bution of character and word units was counted and analyzed, and the distribution of words in static state was revealed 


based on Zipf’ s law. [ Result/conclusion | From the perspective of the sentence length distribution in the word dimension 


and the Zipf distribution of vocabulary, the sentence length and vocabulary distribution have both changed in the 1998 and 


2018 corpora as time goes by, but this change is continuous and related. 


Keywords: New Era People s Daily segmented corpus 


Zipf’ s law 


segmented corpus 


sentence length distribution of word 
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